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基于 推 稀 踊 自 编码 的 二 叉 树 集成 入 侵 检测 方法 


柳 角 :， 阴 梓 然 法 洲 ? 
(1. 广东 工业 大 学 计算 机 学 院 ， 广 州 510006; 2. 广州 城市 职业 学 院 科研 处 ， 广州 510405) 


摘 要 : 至今 已 经 有 许多 不 同 的 机 器 学 习 方 法 被 提出 来 ， 而 传统 的 机 器 学 习 方法 无 法 有 效 解决 大 规模 入 侵 数据 的 分 
类 问题 ， 为 了 解决 大 规模 入 侵 数 据 的 分 类 问题 ， 提 出 的 堆 稀 下 自 编码 的 lightGBM (light gridient boosting model) 二 
又 树 算 法 。 首 先 将 类 别 标签 分 为 五 类 ， 构 造成 二 又 树 结构 ， 然 后 通过 上 采样 方法 解决 数据 分 布 的 不 平衡 问题 ， 以 上 
处 理 可 以 将 大 规模 的 数据 分 解 开 来 以 便 之 后 分 开 训 练 ， 再 采用 稀疏 自 编码 器 网 络 进行 特征 降 维 ， 采 用 该 种 降 维 方法 
可 以 保证 在 原始 数据 中 抽取 出 更 深层 特征 的 基础 上 节省 降 维 时 间 。 最 后 通过 lightGBM 集成 算法 进行 分 类 ， 而 采用 
lightGBM 模型 相 比 其 他 模型 可 以 在 保证 分 类 性 能 的 情况 下 节省 训练 时 间 。 实验 利用 NSL-KDD 数据 集 测量 了 所 提 方 
法 的 准确 率 (accuracy)、 精 确 率 〈precision)、 召 回 率 (recall) 以 及 综合 评价 指标 局 在 五 类 分 类 上 平均 分 别 达到 了 
87.42%，98.20%，91.31%， 优 于 对 比 算 法 ， 且 明显 节省 了 运算 时 间 。 

关键 词 : 入 侵 检测 ; 堆 稀疏 自 编码 网 络 ; lightGBM 算法 ; 不 平衡 数据 ; NSL-KDD 数据 集 
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Binary tree ensemble intrusion detection method based on stacked sparse autoencoder 


Liu Yi!, Yin Ziran!, Hong Zhou” 
(1. School of Computer Science & Technology, Guangdong University of Technology, Guangzhou 510006, China; 2. Office 
of Academic Research, Guangzhou City Polytechnic, Guangzhou 510405, China) 


Abstract: So far, many different machine learning methods have been proposed, and traditional machine learning methods 
can not effectively solve the classification problem of large-scale intrusion data. In order to solve the problem of 
classification of large-scale intrusion data, This paper proposed lightGBM binary tree algorithm based on stacked sparse 
autoencoder. Firstly, the category labels were divided into five categories and constructed into binary tree structures, then 
the imbalance of data distribution was solved by the upper sampling method, the above processing could separate the 


large-scale data, so that they could be trained separately, and then, the sparse autoencoder network was used to reduce the 


feature dimension. Using this method could ensure that time of dimension reduction could be saved on the basis of 
四 四 extracting deeper features from the original data. Finally, the lightGBM ensemble algorithm was used to classify. And 
compared to other models, using the lightGBM model could save training time while ensuring classification performance. 
< The NSL-KDD dataset was used to measure the accuracy, accuracy, recall, and comprehensive evaluation index Fl of the 
人 proposed method, which reached an average of 87.42 %, 98.20 %, and 91.31 % in five classification, respectively. It is 
Superior to the comparison algorithm and obviously saves the calculation time. 

Key words: intrusion detection; stacked Sparse AutoEncoder network; lightgbm algorithm; imbalanced data; nsl-kdd 


dataset. 


0 引言 括 决 策 树 、 朴 素 贝 叶 斯 、 随 机 森林 、K- 均 值 聚 类 算法 、 支 持 
呈 向 量 机 。 传 统 的 浅 层 结构 的 机 器 学 习 方 法 大 多 表达 复杂 函数 

入 侵 检测 是 信息 安全 的 重要 组 成 部 分 ， 只 有 正确 检测 入 ”的 能 力 有 限 ， 泛 化 能 力 较 弱 ， 因 此 不 能 很 好 地 处 理 复 杂 的 分 
侵 ， 才 能 实现 后 续 反应 和 恢复 。 入 侵 检测 分 为 误 用 检测 和 异 ”类 问题 。 
常 检测 , 误 用 检测 通过 建 模 并 利用 攻击 的 鲜明 特征 来 检测 入 近年 来 ， 深 度 学 习 已 成 为 机 器 学 习 中 的 一 个 热门 话题 ， 
侵 . 误 用 检测 对 于 已 知 的 入 侵 具 有 较 高 的 检测 率 , 但 无 法 检测 ”深度 学 习 方法 在 人 脸 识别 、 语 音 识 别 、 图 像 识别 等 领域 得 到 
到 新 的 入 侵 。 异 常 检测 是 基于 正常 行为 的 模型 ， 任 何 偏 离 所 了 广泛 的 应 用 。 同 时 , 在 入 侵 检测 中 也 采用 了 深度 学 习 方法 。 
构造 的 正常 行为 模型 的 行为 都 被 认为 是 异常 由 。 由 于 很 难 对 ”文献 D] 提 出 了 基于 PCA 降 维 KNN 作为 分 类 器 的 入 侵 检测 方 
所 有 正常 行为 进行 精确 建 模 ， 有 异常 检测 很 容易 将 正常 行为 错 法， 实验 表明 ， 在 应 对 多 分 类 问题 时 ， 对 于 少数 类 的 检测 率 
误 地 归 类 为 攻击 。 明显 不 高 ， 由 此 可 以 看 出 在 应 对 大 规模 数据 时 ， 对 于 少数 类 
随 着 移动 互联 网 和 物 联网 的 不 断 发 展 ， 网 络 攻 击 日 益 智 ”的 处 理 尤 为 重要 。 文 献 [3] 提 出 了 一 个 半 监 督 约束 玻 尔 效 曼 机 
能 化 和 复杂 化 ， 使 得 恶意 入 侵 的 检测 更 加 困难 。 为 了 应 对 这 ”器 (DRBM) 模型 ， 它 可 以 检测 未 知 的 入 侵 事件 ， 他 们 在 网 
些 挑战 ， 机 器 学 习 方 法 在 入 侵 检 测 中 得 到 了 广泛 的 应 用 ， 包  ” 络 异 常 检 测 中 的 准确 率 达 到 了 96%， 但 应 对 大 规模 数据 时 ， 
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其 模型 的 影响 较 大 ， 
[4] 提 出 了 DBN 和 SVM 的 
SVM 用 于 


神经 网 络 , 这 个 模型 
得 的 六 个 基本 特征 ， 对 了 


因此 此 方法 缺乏 去 噪 策 略 。 文 献 
DBN 用 于 降低 输入 数据 集 
良好 的 效果 , 然而 ， 
于 大 规模 且 种 类 繁多 的 


日 合 ， 
F 分 类 。 这 一 组 合 : 
考虑 类 别 不 平衡 问题 ， 这 
的 侦 测 性 能 是 致命 的 。 文 献 [3] 表 明 ， 堆 去 噪 自 编码 
网 络 能 够 很 好 地 区 分 恶意 和 非 恶 


F， 作 者 构建 了 三 个 隐 


于 入 侵 检测 在 数据 


被 传递 给 另 一 个 RBM 产生 一 个 DBN。 
递 到 一 个 精细 的 调节 层 ， 
| 练 ) 与 softmax 层 纪 


| 


据 的 规模 增 大 而 增加 ， 因 此 权重 优化 算法 
对 较 大 的 数 扩 


AI 入 7/ 


贰 模 大 


儿 ” 毅 ， 等 : 基于 堆 稀 疏 自 编码 的 二 又 树 集成 入 侵 检测 方法 


了 在 SDN 环境 中 容易 获 
FF 特征 的 考虑 过 少 ， 容 易于 失信 息 ， 

的 情况 下 使 用 。 文 献 
个 隐藏 层 的 RBM 来 进行 无 监督 的 特征 降 维 。 权 重 


一 个 逻辑 


预先 训练 的 权重 被 传 
归 分 类 器 (用 10 个 迭 
成。 使 用 KDD CUP99 组 数据 对 
是 出 的 解决 方案 进行 了 评估 。 作 者 声称 检测 率 97.90%, 假 
阴性 率 为 2.47%。 这 比 类 似 论文 f 
优化 使 用 的 随机 梯度 下 降 法 ， 在 优化 时 间 上 会 随 着 数 


FE 者 声称 的 结果 有 所 改进 ， 


居 规 模 。 文 献 [7] 提 tH 


个 有 效 而 灵活 的 NIDS。 他 们 
， 它 结合 了 稀 琉 的 自动 编码 器 和 


基于 深度 学 习 的 方法 
的 方法 被 称 为 自学 


softmax 回归 。 他 1 


岂 们 的 解决 方案 ， 


其 进行 了 评估 。 在 2 类 和 5 类 分 类 中 ， 


的 提高 。 然 而 同样 在 其 权 习 


了 7 


上 可 以 进一步 改善 以 应 对 大 ] 


[大 规模 数据 时 的 问题 ， 
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分 类 精度 都 有 一 名 
EE 优化 算法 上 可 进一步 改善 。 文 献 
席 自 编码 网 络 (SSAE) 和 XGBoost 集成 算法 的 纪 
来 降 维 输入 数据 ，XGBoost 和 
实验 结果 表示 他 们 在 5 类 分 类 中 的 平均 Fl 值 达到 了 91.97%， 
他 们 采用 的 5 层 稀 玻 自 编码 网 络 的 降 维 效果 和 在 训练 时 
规模 入 侵 数据 。 基 于 以 上 工作 
存在 的 一 些 欠 缺 ， 有 必要 提出 进一步 的 方法 来 解决 入 侵 检测 


旨 在 进一步 优化 入 侵 检测 算法 


使 用 了 NSL-KDD 数 # 


需 进 一 步 更 新 以 应 


Pn 


NSL-KDD 数据 外 


让 TU 


p= 


瑟 


成 算法 用 来 分 类 。 


间 ， 和 弥补 类 别 数 据 不 平衡 的 缺陷 ， 从 而 改善 分 类 


站， 并 采用 Adam 函数 作 


为 优化 器 的 稀 纹 自 编码 网 络 进行 降 维 ， 


适当 数量 的 前 
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函数 作为 记 


寺 间 ， 与 此 同时 采 月 


1 的 上 采 档 


堆 稀 玻 自 编码 网 络 
单 层 稀疏 自 编码 〈SAE) 


够 给 出 输入 向 量 的 压缩 表示 ， 


| 练 欠 代数 包 


| 练 优化 器 的 3 


Ml 


有 lightGBM 算法 
闻 和 提高 了 分 类 效果 。 之 
方法 解决 了 大 前 


通过 大 量 的 实验 ， 选 
层 。 最 后 通过 lightGBM 
10 构 造 的 二 叉 树 结构 方法 进行 分 类 。 贡 献 在 于 : 采 

堆 稀 玻 自 编码 来 进行 降 
高 了 少数 类 的 分 类 精度 ， 而 且 减 少 了 网 络 训练 的 
作为 分 类 器 进一步 减少 
采用 二 又 树 的 结构 并 通 
了 分 算法 对 于 少数 类 侦 测 


到 1 所 示 , 单 层 的 SAE 具有 输入 层 、 隐 藏 层 和 输出 层 ， 
因为 隐藏 节点 的 数目 小 


向 量 的 长 度 。 训 练 过 程 保 订 


pe 


向 量 足 够 接近 输入 向 
XeR Ra 表示 输入 向 量 的 集合 ,如 此 隐 


藏 节点 能 够 表征 数据 集 的 有 效 特 征 表示 。 给 定 一 个 输入 向 量 


a(x*)=f(W(Dx+b.) 


: f(z)=1/(+exp(-z)) 是 sigmoid 激 


隐藏 节点 及;, j=1,2,…5 的 激励 函数 计算 如 下 : 


(1) 
励 函 数 ，W(1) 是 关 


是 包含 有 s 个 隐藏 节点 的 隐 
计算 如 下 : 


中 : W(1D? 是 关联 隐藏 
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t=f (WO acD+DD) 


层 的 偏 置 向 各 


KL(p 


励 值 ) 


量 。 成 本 函数 Jo 包括 所 


: Jiz 是 不 考虑 稀 玻 性 时 的 成 本 函数 ， 第 二 项 是 稀 玻 惩 
。 具 体 地 说 ，B 是 控制 稀 
1P) 是 PB; (隐藏 节点 HH 相对 于 所 有 输入 数据 的 平均 激 


， 和 〈 设 定 的 稀疏 参数 ) 之 间 的 Kullback-Leibler 散 


节点 的 大 多 数 激 励 结 果 都 限 
算 如 下 : 


入 数 


以 防止 


其 中 nk 为 编号 为 k 的 隐藏 层 的 节点 数 ，KL 散 度 其 


联 输 入 层 和 隐藏 层 的 权重 矩阵 , br 是 输入 层 的 偏 置 向 量 , a(x) 
层 的 激励 函数 。 输 出 向 量 欧 ， 其 


(2) 


民 和 输出 层 的 权重 矩阵 ，bh(D) 是 隐 
和 输入 数据 和 输出 数 


据 之 间 的 误差 ， 权 重 衰减 项 和 稀疏 惩罚 项 。 有 具体 来 说 ， 成 本 
函数 的 定义 如 下 ; 
Tu = Ts + BY KoID) (3) 


疏 惩 罚 项 的 权重 的 系数 ， 


计算 


为 plog(p/1Pj)+(1-p)log(U 一 p)/(1-P,)) 。 值 得 注 


> > > wy 


1 、 2 4 
Tes | 二 


这 


1=1 i=l j=l 


， 第 一 项 测量 输入 和 输出 数 : 
据 
自 编码 器 过 拟 合 。 其 中 4 是 规范 


节点 数量 ，W(7) 是 关联 相 邻 两 


E 意 的 是 隐藏 


站 在 接近 0 的 值 上 。 第 一 项 Jis 计 


(4) 


之 间 的 总 误差 ， 其 中 n 是 


的 维 数 ; 第 二 项 是 权重 衰减 项 , 它 控制 权重 的 数量 ， 


层 之 间 的 权重 矩阵 。 


此 处 优化 方法 主要 通过 利用 
Vs 的 权重 和 人 
基本 原理 
定 次 数 的 迭代 后 ， yw 会 被 减少 到 相当 小 的 值 ， 因 此 实现 了 


SAE 的 自动 特征 提取 。 
使 用 Adam 算法 更 新 W 和 各 
E 计 算 momentum 指数 加 权 3 


Adam 算法 


化 参数 ， nl 是 层 数 ， 


前 层 的 编号 ，w 和 si 是 相 邻 两 个 层 之 间 各 自 隐 藏 层 的 


优化 成 本 函数 
扁 置 值 来 完成 SAE 的 训练 过 程 。Adam 算法 的 


E 是 将 Momentum 和 RMSprop 结合 在 一 起 。 经 过 一 


层 偏 置 值 bp， 其 具体 步 


F 均 数 ， 公 式 如 下 : 


Va,= BVa, +(1- PB)Ow 


Vo = BVo, + (1 -PB)ob 


全 


Sa， = [Sa 3 


So 到 [Sm 


用 RMSprop 算法 进行 更 新 ， 公 式 如 下 : 
+( -PB)(Ow) 


+(1—pB)(0b) 


此 时 将 式 (5) ~ (8) 丝 考 虑 修正 偏差 ， 公 式 如 下 : 


又 是 


(5) 


(6) 


(7) 


(8) 
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录用 定稿 柳 
V. 
VE, a Ow 
2% = 全 
S 
Se = 一 as 
ow (dd-p;) (10) 
. V. 
TVe = % 
“= 人 
S 
人 二 ob 
ob GD (12) 
最 终 参数 的 更 新 函数 如 下 ; 
WD=WD)-a ee 3) 
ow te 
bh(D=b(D) -a (14) 
Sy 十 如 


有 


: Q 为 学 习 率 ，V 表示 移动 均值 ，S 表示 平方 梯度 ，h、 


记 是 指数 衰减 率 ，& 是 设 定 的 步 长 , t 表示 某 个 时 刻 , 而 Br 和 


房 表示 在 t 时 刻 的 相应 值 。 


编码 器 


Wk 
U2 
U3 
\ 内: / 八 
ey WN 
AGO 
jy 访 
输入 层 隐藏 层 输出 层 


图 1 稀 玻 自 编 码 结构 
Fig. 1 Architecture of SAE 

1.2 堆 稀 朴 自 编码 (SSAE) 

顾名思义 ，SSAE 是 一 种 分 层 编码 结构 ， 单 层 SAE 被 堆 
积 起 来 。 每 个 隐藏 层 都 希望 从 上 一 层 学 习 到 更 抽象 的 特征 表 
示 02。SSAE 中 每 层 的 训练 过 程 与 SAE 的 训练 过 程 是 相同 的 
即 最 大 限度 地 降低 成 本 函数 ， 并 在 每 次 获得 一 层 最 优 权 值 和 
偏 置 值 。 在 所 有 的 层 经 过 适当 的 训练 后 ，SSAE 能 够 从 训练 
数据 集 的 输入 数据 中 学 习 到 更 复杂 和 抽象 的 特征 表示 。 
图 2 是 堆 稀 玻 自 编码 的 训练 结构 图 ， 因 堆 稀 疏 自 编码 的 
构建 方式 为 先 单独 训练 各 个 SAE,， 每 一 层 的 输入 皆 是 其 上 一 
层 的 隐 层 ， 最 后 有 序 的 将 各 级 隐 层 连接 起 来 构建 成 整体 的 
SSAE。 第 一 层 由 x、h2、X 组 成 再 使 用 式 (4) 来 无 监督 的 学 习 
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特征 表示 ， 之 后 使 ) 


j 式 (13)(14) 得 到 权重 和 偏 置 W1、b1， 第 
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层 由 hi+，h2，H2 组 成 ， 由 训练 过 层 与 第 一 层 相 同 并 得 到 
W2、b2， 重 复 以 上 步骤 最 终 得 到 整个 网 络 的 参数 。 
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图 2 推 稀 琉 自 编码 的 训练 结构 加 


Fig.2 Training architecture of SSAE 


2 ”基于 堆 稀 疏 自 编码 的 二 叉 树 集成 
2.1 数据 处 理 流程 


算法 


如 图 3 所 示 ， 首 先导 入 NSL-KDD 数据 集 ， 其 次 ， 将 数 


据 作 为 神经 网 络 的 输入 ， 因 此 需要 对 数据 进行 预 处 理 。 对 于 


连续 特征 ， 需 要 规范 化 来 平衡 每 一 维特 征 的 影响 ， 而 对 于 类 


别 特征 则 需要 独 热 编码 。 然 后 ， 标 i 


住 化 数据 被 用 作 


SSAE-lightGBM 二 叉 树 的 输入 。 最 后 ， 利 ) 


该 模型 对 实验 数 


据 进行 了 预测 ， 并 对 实验 结果 进行 了 对 比分 析 。 


国 导入 数据 一 一 
> | 


| 数据 规范 化 | 


Po > 
结果 评估 | 一 测试 数据 集 () 一 一 一 
| ! R 2 


图 3 数据 处 理 流 程 


Fig. 3 Process of data processing 


2.2 堆 稀疏 自 编码 的 lightGBM 二 又 树 结构 算法 


(SSAE-lgb-BT) 框 架 


在 入 侵 检 测 中 ， 数 据 类 别 的 不 平衡 问题 频繁 发 生 ， 造 成 


了 对 数据 量 少 的 类 别 预测 性 能 不 佳 的 效果 。 


解决 类 别 数据 量 


不 平衡 问题 的 方法 一 般 包 括 上 采样 、 下 采样 、 代 价 敏感 学 习 
算法 。 通 过 参考 决策 树 的 分 类 过 程 和 对 入 侵 数 据 集 分 布 的 分 


析 ， 引 入 了 二 又 树 来 解决 入 侵 检 测 问题 。 


通过 使 


j 二 又 树 ， 


将 多 重 分 类 简化 为 二 元 分 类 ， 使 原来 的 多 分 类 中 类 别 数 据 的 


失衡 问题 变 得 相对 平衡 ,减少 了 接 下 来 集成 


方法 计算 的 次 数 。 


二 分 类 可 能 还 存在 数据 不 平衡 问题 。 在 数据 层面 ， 过 采 


样 和 欠 采 样 是 最 具 代 表 性 的 方法 。 
别 创造 合成 的 样本 ， 并 将 其 添加 到 训练 集 
长 的 时 间 来 进行 训练 .通过 减少 数据 量 多 的 


欠 采 样 方法 通过 平衡 不 同类 别 的 比例 ， 但 这 可 能 会 丢失 一 些 
重要 的 信息 。 基 于 以 上 分 析 ， 提 出 了 一 种 将 EUS031 和 
SMOTEI4 混 合 的 方法 EUS-SMOTE。EUS-SMOTE 方法 先 使 


过 采样 法 为 数据 量 少 的 类 


h， 这 将 需要 相当 
类 别 样本 的 数量 ， 


用 EUS 方法 将 多 数 类 与 存在 多 个 类 别 的 少数 类 的 样本 集 分 
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开 ， 然 后 使 用 SMOTE 方法 对 少数 类 进行 采样 ， 最 后 将 多 数 图 4 所 示 为 预测 阶段 ， 入 侵 数 据 首 先进 入 第 一 层 分 类 器 


类 样本 与 过 采样 后 的 样本 结合 作为 训练 集 ， 之 后 再 重复 将 存 ”A, 通 过 SSAE-lightGBM 集成 模型 后 将 会 被 分 为 0 类 或 1 类 ， 
在 多 个 类 别 的 少数 类 采用 相同 的 EUS-SMOTE 方法 。 关 于 不 ”车 被 判 为 0 类 则 输出 分 类 结果 ， 并 转换 为 真实 的 标签 ， 若 被 
平衡 类 别 数据 的 过 采样 比例 使 用 1: 1 进行 数据 的 过 采样 。 最 。 分 为 1 类 则 会 将 原始 的 侵入 数据 输入 到 第 二 层 分 类 器 B 处 分 
后 在 每 层 分 开 的 数据 集 上 使 用 SSAE- lightGBM 集成 算法 i 类 ， 之 后 重复 以 上 操作 直到 结束 。 


Hr 


行 训练 并 进行 分 类 ， 其 算法 结构 框架 如 图 4 所 示 。 图 6 是 使 用 SSAE-lightGBM 模型 预测 入 侵 数 据 时 的 详 
过 程 。 其 前 半 段 是 由 3 层 训 练 好 的 隐 层 组 成 的 编码 器 (训练 
测 避 全 过 程 如 图 2 所 示 )， 当 数据 依次 通过 一 ~ 三 层 时 ， 原 始 特征 维 
数 将 会 由 下 一 层 的 神经 元 数 所 确定 ， 直 至 到 达 最 后 一 层 ， 编 
BS-SMoTE 码 器 将 从 高 维特 征 中 自动 抽取 出 有 意义 的 特征 。 之 后 将 特征 
人 作为 lightGBM 分 类 器 的 输入 从 而 得 到 预测 结果 。 关 于 图 6 
Tt 前 半 部 分 的 编码 器 一 共有 4 个 ， 分 别 是 在 图 5 训练 过 程 中 产 
Nonal | pos Probe ak ma 生 , 此 4 个 编码 器 分 别 是 从 不 同 是 数据 集中 无 监督 学 习 产 生 。 
Vv 
B Th 
\ EM | vy 
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堆 稀 玻 自 编码 编码 器 


图 4 算法 框架 
Fig.4 Structure of algorithm 中 6， 模型 预测 过 程 


SSAE-lightGBM 集成 算法 的 训练 过 程 如 图 5 所 示 ， 图 中 Fig.6 Predicting process of model 
(a)~(d) 训 练 的 最 终 分 类 器 依次 对 应 图 4 中 A、B、C、D 四 个 本 
分 类 器 。 图 5( J > 了 汽 3 实验 与 结果 
。 图 5(a) 中 ， 首 先 将 NSL-KDD 训练 集 分 为 两 大 类 ， 
分 别 为 Nomal 类 以 及 (Dos，Probe，U2R，R2L) 类 ， 其 标签 分 为 了 证 明 所 提 算 法 的 有 效 性 ， 本 文 使 用 NSL-KDD 公用 
别 标记 为 0、1， 之 后 使 用 EUS-SMOTE 处 理 0、1 两 类 的 类 ”数据 集 将 所 提出 的 SSAE-lightGBM 二 又 树 结构 算法 与 
别 平衡 问题 ， 之 后 利用 SSAE 抽取 数据 的 深层 特征 T， 最 后 ”SSAE-XGBoost 二 又 树 结构 算法 、PCA-XGBoost- 二 又 树 结构 
将 工 放 入 lightGBM 模型 训练 , 训练 过 程 使 用 bagging 投票 式 ”算法 的 分 类 效果 进行 比较 。 以 上 几 种 方法 在 Intel® Core™ 
的 5 折 交 叉 验 证 法 融合 预测 结果 ， 并 最 终 得 到 分 类 器 A。 同 i5-3210M CPU @ 2.5Hz 处 理 器 、4 GB J Windows7 64 
样 通 过 以 上 相同 步骤 得 到 分 类 器 B、C、D。 位 操作 系统 和 Pycharm2017 的 环境 中 运 
i Ne 3.1 数据 及 描述 
Wi J 对 所 有 的 NSL-KDD 数据 集 进行 了 实验 ,NSL-KDD 数据 
OO Ee 集 由 KDDcup99 数据 集 生成 。 它 解决 了 KDDcup99 数据 集中 
—— 和 一 ”一 的 数据 元 余 问 题 ,更 具 实 用 性 .NSL-KDD 数据 集 包含 125 973 
Es-Siore BUS-SIoTE 训练 样本 和 22 544 测试 样本 ， 它 包括 四 类 攻击 : 拒绝 服务 攻 
obi apie 击 (DoS), 远程 到 本 地 攻击 (R2L), 用 户 根 目录 攻击 (U2R) 
(a) (b) 和 攻击 者 试图 获取 有 关 目 标 主机 信息 的 嗅 探 攻击 (Probe)。 
图 7 显示 了 训练 数据 和 测试 数据 的 分 布 情况 ， 数 据 在 不 同类 
人 别 中 的 分 布 是 不 平衡 的 。 DoS 类 别 的 数目 比 U2R 类 别 的 数目 
es = 多 得 多 。 
Prote tag RL 加 aL NSL-KDD 数据 集 包 含 41 个 特性 和 1 个 类 标签 。 这 41 
去 个 特征 包含 38 个 连续 特征 和 3 个 类 别 特征 。 
SSAETightCB SETightO 3.2 评估 方法 
2 > 采用 精确 度 、 召 回 率 和 Fl1 值 计 量 方法 。 用 这 些 方法 来 
加 比较 不 同 模型 的 结果 。 评 估 措 施 的 计算 公式 如 下 
图 5 各 分 类 器 的 训练 流程 TP 


Recall = 


Fig.5 Training process of various classifier TP+FN 


x100% (15) 
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有 TP (SSAE-lgb-BT ensemble )、 堆 稀 琉 自 编 码 的 极限 梯度 提升 集 
Pr ecision = x100% (16) 本 。 
P+FP 成 二 叉 树 结构 算法 (SSAE-xgb-BT ensemble)、 主 成 分 分 析 的 
本 27P 本 ci lightGBM 二 叉 树 结构 算法 (PCA-lgb-BT) 分 别 在 NSL-KDD 
二 一 一 O 
2TP+ FP+FN 数据 集 上 的 性 能 表现 ,将 三 种 算法 分 别 依 次 用 SLB、SXB、PLB 


其 中 : TP 〈 真 阳 率 ) 表示 正常 类 型 数据 被 正确 归 类 的 情况 ， 表示 。h 值 反映 了 模型 的 检测 效果 。 在 Fi 值 方面 , 表 中 显示 
TN( 真 明 率 ) 表 示 攻 击 类 型 数据 被 正确 归 为 攻击 类 别 的 情况 ， SSAE-xgb-BT 算法 优 于 不 进行 深度 特征 提取 PCA-xgb-BT 算 
FN 〈 假 阴性 ) 表示 将 正常 类 型 归 为 攻击 类 型 的 情况 ， 而 FP ”法 ,并 且 从 运行 时 间 上 ， 也 只 花费 了 后 者 1/4 的 时 间 ， 从 这 可 


受 阳 性 ) 指 的 是 攻击 类 型 被 归 类 为 正常 类 型 的 情况 。 精 确 以 看 出 堆 稀 琉 自 编码 在 提取 特征 方面 要 优 于 主 成 分 分 析 法 。 
度 指出 返回 的 正常 类 别 有 多 少 是 正确 的 ， 而 召回 率 则 指出 模 。 ”从 SSAE-lgb-BT 和 SSAE- xgb-BT 算法 的 性 能 可 以 看 出 ， 在 


型 返回 的 攻击 有 多 少 是 被 分 错 的 。Fi 测度 是 精确 度 和 召回 率 Probe 类 上 下 值 达到 了 97.09%， 高 出 后 者 9 个 百分点 。 虽 然 
的 调和 平均 值 。 在 少数 类 R2L 上 精确 度 偏 低 , 但 与 SSAE-xgb-BT 算法 相 比 ， 
710000 -i | 对 于 少数 类 U2R， 在 召回 率 上 有 明显 提升 ， 并且 在 计算 时 间 
et 上 , SSAE-lgb-BT 集成 算法 只 用 了 SSAE-xgb-BT 集成 算法 的 
J 将 近 1/5 的 时 间 ， 从 而 在 整体 性 能 表现 上 ， 本 文 提 出 的 混合 
0 ge 分 类 器 的 性 能 优 于 SSAE-xgb-BT 等 其 他 分 类 算法 。 
中 a 表 2 展示 了 DNN(I)D 、DNN(C)0 两 种 算法 与 
5 SSAE-lgb-BT 集成 算法 的 比较 ， 上 述 两 种 算法 的 数据 都 出 自 
§ 20000 于 论文 中 所 给 实验 结果 。 从 结果 比 对 可 以 看 出 , SSAE-lgb-BT 
20000- 集成 算法 作为 一 种 混合 算法 要 优 于 DNN 算法 的 ， 由 此 可 以 
工 | ness 进一步 说 明 使 用 堆 稀 疏 自 编 码 进行 特征 降 维 可 以 从 高 维特 征 
L 中 学 习 到 更 深层 次 的 特征 。 根 据 Fl 值 ， 与 所 提 算 法 进行 比 
Ge De < 较 ， 可 以 看 出 SSAE-lgb-BT 算法 可 以 更 好 的 处 理 数据 不 平衡 
Re 问题 ， 从 而 有 更 好 的 分 类 效果 。 
图 7 训练 数据 集 与 测试 数据 集 的 分 布 表 1 不 同 模型 的 结果 比较 
Fig.7 Distribution of data of train and test Table ] Comparison of different model 
3.3 稀疏 自 编码 的 迭代 数 及 隐藏 层 数 的 选择 模型 ”类 别 精确 度 (%) ”召回 率 (%) Fi(%) time(s) 
对 于 SSAE-lightGBM 的 构成 要 素来 说 , 预 训练 迭代 的 数 Normal 98.64 98.82 98.73 673 
量 和 隐藏 层 的 数量 非常 重要 。 预 训练 迭代 次 数 太 少 则 无 法 减 Dos 99.01 99.15 99.08 
少 损 失 ， 而 太 多 则 浪费 机 器 资源 。 过 多 的 隐藏 层 会 导致 过 度 SLB Probe 97.54 96.64 97.09 
拟 合 ， 过 少 的 隐藏 层 无 法 达到 良好 的 检测 性 能 。 因 此 ， 对 预 R2L 73.77 96.42 83.59 
训 过 程 中 的 迭代 次 数 和 隐藏 层 数 进行 了 实验 ， 该 实验 选取 的 U2R 68.18 100.00 78.09 
batch_size 大 小 为 64，epochs 为 80， 隐 藏 层 选 取 100-80-60 Normal 97.96 99.96 98.94 3232 
的 三 层 结 构 。 Dos 98.57 99.17 98.86 
在 不 同 隐 茂 层 的 情况 下 ， 损 失 与 预 训练 迭代 次 数 的 关系 SXB Probe 75.75 99.50 86.02 
es 如 图 8 所 示 。 从 图 8 可 以 看 出 ， 随 着 迭代 的 增加 ,不 同 隐藏 层 R2L 99.18 97.13 98.14 
的 损失 呈 不 同 的 下 降 趋 势 。 随 着 迭代 的 增加 ， 第 1、2 和 第 3 U2R 69.26 89.00 77.89 
层 的 损失 下 降 在 40 迭代 次 数 后 都 趋 于 稳定 ,通过 以 上 分 析 本 Normal 90.31 92.99 91.63 14987 
文选 择 了 含 3 个 隐藏 层 和 40 个 预 训练 迭代 数 的 网 络 结构 。 Dos 98.75 22.85 37.11 
| -人 Lhidden -下 3hidden —— 5hidden | PLB Probe 20.07 80.51 32.13 
20- | 一 ?hatm 全 thdden ~ oidden] R2L 1373 383 299 
有 U2R 25.00 18.18 21.05 
表 2 与 其 他 模型 比较 
9 Table 2 Comparison with other models 
n 12.5- 模型 精确 度 (%) 召回 率 (%) Fi(%) 
3 SSAE-lgb-BT 
10.0 - 了 87.42 98.20 91.31 
75 - DNN(1) 83.00 69.00 75.35 
sd DNNO) 83.00 75.00 74.00 
2.5- 4 ”结束 语 
0 10 20 30 4 50 io 70 ao 利用 堆 稀疏 自 编 码 网 络 ， 以 无 监督 的 方式 学 习 入 侵 检测 
teravions 数据 的 深层 特征 。 稀 玻 性 约束 增强 了 堆 稀 疏 自 编码 网 络 的 泛 
图 8 预 训练 迭代 数 、 隐 藏 层 数 与 损失 的 关系 化 能 力 。 实 验 结果 表明 ， 本 文 提出 的 SSAE-lgb 方法 能 够 从 
Fig.8 Relationship between pre-training, hidden number and loss 高 维 入 侵 数 据 中 提取 出 深层 的 稀疏 特征 。 与 线性 降 维 法 主要 
3.4 实验 性 能 评估 成 分 分 析 法 (PCA) 相 比 ，SSAE-lgb-BT 集成 算法 显著 提高 
表 1 展示 了 堆 稀 下 自 编码 的 lightGBM 二 又 树 结构 算法 了 检测 效果 ， 与 运用 随机 梯度 提升 法 作为 优化 器 的 5 层 堆 稀 
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玻 自 编码 网 络 SSAE-xgb-BT 集成 算法 相 比 , SSAE-lgb-BT 集 
成 算法 进一步 提升 了 准确 率 , 并 节约 了 更 多 的 计算 时 间 , 虽 然 
在 少数 类 R2L 上 精确 度 偏 低 , 但 与 SSAE-xgb-BT 算法 相 比 ， 
对 于 少数 类 U2R， 在 召回 率 上 显 提升 ， 从 而 在 整体 性 能 
表现 上 。 所 以 本 文 提 出 的 混合 分 类 器 的 性 能 优 于 其 他 分 类 算 
法 , Fi 值 达到 了 平均 91.31%。 并 且 ， 本 文 的 方法 能 够 很 好 
处 理 类 别 失 衡 问题 ， 提 高 少数 类 别 的 Fi 值 。 因此 本 文 为 网 络 
入 侵 检 测 提供 了 一 种 新 的 研究 方法 。 在 接 下 来 的 工作 中 将 进 
一 步 提升 算法 的 性 能 ， 本 文通 过 将 训练 集 数 据 进行 紊 类 ( 聚 
类 中 心 为 5)， 再 将 测试 集 对 5 个 聚 类 中 心 进 行 分 类 〈 可 采用 
KNN)， 如 此 可 以 进一步 提高 SSAE-lgb 二 叉 树 集成 算法 的 准 
确 率 和 计算 时 间 。 
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